INFERENCIA ESTADÍSTICA

  • Se denomina así al área de la estadística que se ocupa de inferir o estimar propiedades o características o tendencias de una población a partir de una o varias muestras.
  • Es una parte de la Estadística que permite generar modelos probabilísticos a partir de un conjunto de observaciones.

ESTIMACIÓN DE PARÁMETROS

  • Un aspecto muy importante en la inferencia estadística, es la estimación de parámetros poblacionales a partir de estimadores (estadísticos) muestrales.
  • La inferencia estadística trata de cómo obtener información (inferir) sobre los parámetros a partir de subconjuntos de valores (muestras) de la variable.

La estimación de un parámetro se puede expresar de dos formas:

  1. Estimación puntual –> es un valor único que representa la estimación del parámetro
  2. Estimación por intervalos –> es un intervalo formado por dos valores muestrales, los cuales representan los límites en el que se supone se encuentra el parámetro

TEOREMA CENTRAL DEL LÍMITE

  • Para cualquier n muestral suficientemente grande, la distribución del promedio de las muestras se aproxima a la distribución normal
  • Cualquiera que sea la forma de la distribución de la población, la distribución muestral de una variable aleatoria, tiende a ser gaussiana

TEOREMA CENTRAL DEL LÍMITE



Propiedades de muestras grandes:

  1. Se acercarán a la media paramétrica de la población
  2. La desviación estándar no se acortará, sino que se acercará al σ de la población
  3. Mientras mayor muestra, menor es la d.s. de la media

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS

LA MEDIA

Considerar muestras mayores de 30, para poder asumir una distribución normal. Usualmente se trabaja con la media y la desviación típica de la distribución muestral (\(\bar{X}\) , S).

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS

LA MEDIA

Nivel de Confianza 99.73% 99% 98% 96% 95.45% 95% 90% 80% 68.27%
Coeficiente de Confianza(Z) 3 2.58 2.33 2.05 2 1.96 1.645 1.28 1



Para Poblaciones Infinitas:

\[\bar{X} \pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\]

Para Poblaciones Finitas:

\[\bar{X} \pm Z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\sqrt{\frac{N-n}{N-1}}\]

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS

LA MEDIA

Ejemplo:

Sabemos que la longitud Glabello-occipital (GOL) del data-set craneométrico de Howells, representa una muestra de toda la población de todos los craneos humamos (de 28 poblaciones). Sabiendo esto, queremos conocer los intervalos de confianza para estimar la media para un nivel del 95%, conociendo la media y desviación estandar de la muestra.

\(\large \bar{X} = \frac{452231}{2524}=179.172 \enspace\) \(\enspace \large S = \sqrt{\frac{183834}{2524-1}}=8.536\)

\(\large n = 2524 \enspace\) \(\enspace \large Z = 1.96\)

Como no tenemos el tamaño de la población, usaremos la estimación para Poblaciones Infinitas

\(\large 179.172 \pm 1.96 \frac{8.536}{\sqrt{2524}}\rightarrow 179.172\pm0.333\)

  • Los intervalos son: [178.839; 179.505] a un 95% de confianza, es decir,
  • Hay una probabilidad del 95% que la media (GOL) de la población esté entre 178.839 y 179.505

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS

LA MEDIA

Para muestras menores de 30… Usaremos los Coeficientes de Confianza de la distribución t-student con n-1 grados de libertad.

La formula que usaremos es muy parecida, con un pequeño ajuste:

\(\large \bar{X} \pm t_{\alpha/2}\frac{S}{\sqrt{n}} \enspace\) Los coeficientes t-Student los pueden ver aquí

Para este ejemplo seguiremos usando la longitud Glabello-occipital (GOL), pero de una población pequeña como “S MAORI” que tiene solo 10 observaciones.

\(\bar{X} = \frac{1871}{10}=187.1 \enspace\) \(\enspace S = \sqrt{\frac{262.9}{10-1}}=5.405 \enspace\) \(n = 10 \enspace\)

\(t_{95\%}\) dos colas 9 g.l = 2.262

Entonces:

\(\large 187.1 \pm 2.262 \frac{5.405}{\sqrt{10}}\rightarrow 187.1\pm3.866\)

  • Los intervalos son: [183.233; 190.966] a un 95% de confianza

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS

LA PROPORCIÓN

Un estimador puntual de la proporción P en un experimento binomial está dado por la estadística P=X/N, donde x representa el número de éxitos en n pruebas. Por tanto, la proporción de la muestra \(\hat{p}=x/n\) se utilizará como estimador puntual del parámetro P.

Plantear la estimación de una proporción poblacional tiene sentido cuando la variable estudiada mide en un invividuo la presencia de un atributo (éxito) o su ausencia (fracaso). Ejemplos:

Supongamos que queremos estimar la proporción de craneos de sexo femenino para toda la población a partir la muestra de Howells. Por tanto, sabemos que en la muestra la proporción de craneos de sexo femenino es:

\(\hat{p} = \frac{1156}{2524}=0.458 \enspace\) Nos piden encontrar los intervalos de confianza para la proporción poblacional al 95%

Para esto, usaremos el intervalo de Wald

Para Poblaciones Infinitas:

\[\hat{p} \pm Z_{\alpha/2}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

Para Poblaciones Finitas:

\[\hat{p} \pm Z_{\alpha/2} \sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \sqrt{\frac{N-n}{N-1}}\]

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS

LA PROPORCIÓN

Como no tenemos el tamaño de la población, usaremos la estimación para Poblaciones Infinitas

\[\large 0.458 \pm 1.96\sqrt{\frac{0.458*0.54199}{2524}} \rightarrow 0.458 \pm 0.01944\]

  • Los intervalos son: [0.4386; 0.47749] a un 95% de confianza, es decir,
  • Hay una probabilidad del 95% que la proporción poblacional del sexo femenino esté entre 43.8% y 47.7%

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS

LA PROPORCIÓN

Cuando n es pequeña y la proporción desconocida P se considera cercana a 0 ó a 1, el procedimiento del intervalo de confianza que se establece aquí no es confiable, por tanto, no se debe utilizar. Para estar seguro, se debe requerir que np ó nq sea mayor o igual a 5.

Sin embargo, para muestras pequeñas se puede ajustar mediante el uso de la distribución binomial por el Metodo Clopper–Pearson.

  • La distribución F, también conocida como distribución de Fisher-Snedecor, es una distribución de probabilidad continua que tiene un gran uso en inferencia sobre todo en análisis de la varianza.
  • Una de las propiedades de la distribución F es que queda definida por el valor de dos parámetros reales, m y n, que indican sus grados de libertad.
  • Al igual que la t-Student así como el \(X^{2}\)(ji-cuadrado), tienen sus valores tabulados y los pueden revisar aquí

ESTIMACIÓN DE PARÁMETROS POR INTERVALOS

LA PROPORCIÓN

Supongamos el siguiente ejemplo:

Se poseen 10 huesos de pelvis humanos y por observación se asignó al sexo femenino a 8 de estos. Determiné el intervalo de confianza para proporción poblacional del sexo femenino al 95%.

\(F_{1-\alpha/2;2(10-8+1),2*8}=F_{0.025;6,16}= 3.340 \enspace\) Distribución F con 6 y 16 gl y α = 0.025

\(F_{1-\alpha/2;2(8+1),2(10-8)}=F_{0.025;18,4}=8.5923 \enspace\) Distribución F con 18 y 4 gl y α = 0.025

\(IC_{inf}=\frac{8}{8+(10-8+1)*3.340}=0.4439\)

\(IC_{sup}=\frac{(8+1)*8.5924}{(10-8)+(8+1)*8.5924}=0.9747\)

  • Los intervalos son: [0.4439; 0.9747] a un 95% de confianza, es decir,
  • Hay una probabilidad del 95% que la proporción poblacional del sexo femenino esté entre 44.4% y 97.5%

DÓCIMA DE HIPÓTESIS

Llamada tambien: Contraste de hipótesis, Pruebas de Hipótesis, Pruebas de significación, Reglas de decisión.

Son decisiones que se toman sobre las poblaciones, con base en la información que nos suministra una muestra.

El objetivo último del análisis de datos es el de extraer conclusiones de tipo general a partir de unos pocos datos.

Es una regla que determina, a un cierto nivel de probabilidad, si aceptamos o no una decisión.

HIPÓTESIS ESTADÍSTICA

Esas conjeturas pueden ser ciertas o no, reciben el nombre de hipótesis estadísticas, y en general, son planteamientos sobre la distribución de probabilidades de las poblaciones.

Se pueden distinguir dos tipos de hipótesis estadísticas:

  1. Hipótesis Nula (Ho): Establece a priori, la nulidad, la no diferencia, o el efecto cero en el resultado o característica que se espera. Es la hipótesis que se somete a prueba.
  2. Hipótesis Alternativa (H1): cualquier hipótesis que difiera de la Ho.

SIGNIFICACIÓN

Si suponemos que cierta hipótesis es verdadera, pero encontramos que los resultados de una muestra aleatoria difieren de los esperados bajo la Ho, podemos decir que las diferencias observadas son significativas y nos inclinamos a rechazar la Ho (o al menos, no aceptarla debido a la evidencia obtenida).

ERRORES

Al tomar un decisión respecto a la Ho, partiendo del estadístico muestral, se puede incurrir en errores de decisión.

Hipótesis
Decisión Verdadera Falsa
Aceptar No - Error Error tipo II
Rechazar Error Tipo I No - Error


Error de tipo I: Se comete cuando se decide rechazar la hipótesis nula H0 que en realidad es verdadera. La probabilidad de cometer ese error es α.

Error de tipo II: Se comete cuando se decide no rechazar la hipótesis nula H0 que en realidad es falsa. La probabilidad de cometer ese error es β

Nomenclatura:

  • α = Probabilidad de cometer error tipo I
  • β = Probabilidad de cometer error tipo II

ERRORES

Reducir los errores, no es tarea fácil, ya que al tratar de reducir el error tipo I, se puede incrementar el error tipo II, y vice-versa. Así mismo, el tamaño de la muestra también influye, a menor tamaño se incrementan los errores y a mayor tamaño muestral, los errores disminuyen de forma significativa. Sin embargo en Antropología, el incremento de la muestra, no siempre es algo factible.

ERRORES

En la practica se procede así: Se fija α a criterio del investigador en base a los objetivos y condiciones de la investigación, y se elije la región de rechazo de la Ho, de forma tal que la β se hace mínimo.

Por ejemplo, suponemos que usamos el 5% como criterio límite o magnitud del error, esto quiere decir que rechazaremos 5 de 100 muestras que presenten un comportamiento diferente a la hipótesis nula. Mientras más pequeño es alfa, menor riesgo hay de cometer error de tipo I, pero mayor de cometer error de tipo II.

ERRORES

Los niveles de significancia más usados son:

α = 0,05 y 0,01

Aunque el investigador puede utilizar otros niveles que se ajusten a los objetivos de la investigación

EJEMPLO: Con un α = 0,05 o 5%

Hay posibilidad de 5 en 100, de que rechacemos la Ho, cuando deberíamos aceptarla, es decir, siempre que Ho sea verdadera, tenemos un 95% de confianza que tomaremos la decisión correcta y un 5% de equivocarnos.

TIPOS DE CONTRASTES

Bilateral

Ho: La Población es igual a la Muestra

H1: La Población es diferente a la Muestra

Unilateral a la derecha

Ho: La Población es menor o igual a la Muestra

H1: La Población es mayor que la Muestra

Unilateral a la izquierda

Ho: La Población es mayor o igual a la Muestra

H1: La Población es menor que la Muestra

EL VALOR P

El valor p es un valor de probabilidad, por lo que oscila entre 0 y 1. El valor p nos muestra la probabilidad de haber obtenido el resultado que hemos obtenido suponiendo que la hipótesis nula H0 es cierta. Se suele decir que valores altos de p no permiten rechazar la H0, mientras que valores bajos de p sí permiten rechazar la H0.

En una prueba estadística, se rechaza la hipótesis nula H0 si el valor p asociado al resultado observado es igual o menor que un nivel de significación α establecido arbitrariamente, convencionalmente 0,05 o 0,01

CONTRASTE DE HIPOTESIS y TEST ESTADÍSTICOS

Tipo de Datos Nivel de Medición Descripción Prueba de Hipótesis Asociación
Cualitativos Nominal
  • Frecuencias y porcentaje
  • Moda
  • Chi – cuadrado
  • Exacta de Fisher
  • Coeficiente Phi ( φ)
  • Coeficiente V de Cramer
  • Lambda de Goodman-Kruskal
  • Ordinal
  • Frecuencias y porcentaje
  • Moda
  • Mediana
  • Distribución de frecuencias
  • Wilcoxon
  • U de Mann-Whitney
  • Kruskal-Wallis
  • Coeficiente de Spearman o Kendal
  • Coeficiente Gamma de Goodman y Kruskal (γ)
  • Coeficiente d de Somers (d)
  • Cuantitativos Intervalo / Razón Medidas de tendencia central, posición y dispersión
  • T de student
  • ANOVA
  • Correlación
  • Regresión
  • …A PRACTICAR!!

    SESION PRACTICA

    ESTIMACIÓN DE PARÁMETROS POR INTERVALOS PARA LA MEDIA

    Cargamos el fichero del set craneométrico de Howells

    library(readxl)
    datos <- read_excel("data/Howell.xls")

    Para realizar el cálculo de los intervalos usaremos el paquete Publish

    #install.packages("Publish")  #Hay que instalarlo primero
    library(Publish)

    Usaremos la función ci.mean() del paquete Publis

    ci.mean(datos$GOL)
     mean   CI-95%         
     179.17 [178.84;179.51]

    Los intervalos son: [178.84; 179.51] a un 95% de confianza, es decir, hay una probabilidad del 95% que la media (GOL) de la población esté entre 178.84 mm y 179.51 mm

    SESION PRACTICA

    Tambien, podemos ver los intervalos discriminados por una variable categórica (“sexo”)

    ci.mean(GOL~Sex, data=datos)
     Sex mean   CI-95%         
     F   174.43 [174.02;174.84]
     M   183.18 [182.78;183.58]
    • Para el sexo femenino, hay una probabilidad del 95% que la media (GOL) de la población esté entre 174.02 y 174.84
    • Para el sexo masculino, hay una probabilidad del 95% que la media (GOL) de la población esté entre 182.78 y 183.58

    Tambien podemos hacer una representación gráfica con la función plot() paquete Publis

    plot(ci.mean(GOL~Sex, data=datos))

    SESION PRACTICA

    Podemos hacer un gráfico un poco mejor con ggplot y convirtiendo los resultados en un dataframe

    limites <- ci.mean(GOL~Sex, data=datos)   #Vectorizamos los resultados en un objeto
    #luego lo convertimos en un dataframe, definiendo específicamente las columnas que necesitamos
    data <- data.frame(limites$labels, mean = limites$mean, lower = limites$lower, upper = limites$upper)

    Cargamos la librería de ggplot

    library(ggplot2)
    #Hacemos nuestro gráfico con un geom_pont() + geom_errorbar()
    ggplot(data, aes(Sex, mean)) + geom_point() +
      geom_errorbar(aes(ymin = lower, ymax = upper), width = 0.1) + theme_light() +
      ggtitle("Grafico de medias con IC al 95%")

    SESION PRACTICA

    Para muestras menores de 30…

    Seguimos usando la longitud Glabello-occipital (GOL), pero de una población pequeña como “S MAORI” que tiene solo 10 observaciones

    df_maori <- datos[datos$Population=="S MAORI"  , ]   #hacemos una nueva base filtrada por "S MAORI"

    Tal como lo vimos en clase, usaremos la distribución t-student, para ello usaremos la función t.test()

    t.test(df_maori$GOL)
        One Sample t-test
    
    data:  df_maori$GOL
    t = 109.47, df = 9, p-value = 2.248e-15
    alternative hypothesis: true mean is not equal to 0
    95 percent confidence interval:
     183.2337 190.9663
    sample estimates:
    mean of x 
        187.1 

    Los intervalos son: [183.233; 190.966] a un 95% de confianza, es decir, hay una probabilidad del 95% que la media (GOL) de la población “S MAORI” esté entre 183.23 mm y 190.96 mm

    SESION PRACTICA

    ESTIMACIÓN DE PARÁMETROS POR INTERVALOS PARA LA PROPORCIÓN

    Tal como lo vimos en la sesión teórica, queremos conocer la proporción de craneos de sexo femenino para toda la población a partir la muestra de Howells.

    Entonces necesitamos conocer la frecuencia de craneos femeninos y el tamaño de la muestra.

    n <- length(datos$Sex)      #Tamaño de la muestra
    fem <- sum(datos$Sex=="F")  #Frecuencia de craneos de sexo femenino

    Finalmente usaremos la función prop.test() para obtener los intervalos

    prop.test(fem,n,correct=FALSE)
        1-sample proportions test without continuity correction
    
    data:  fem out of n, null probability 0.5
    X-squared = 17.807, df = 1, p-value = 2.445e-05
    alternative hypothesis: true p is not equal to 0.5
    95 percent confidence interval:
     0.4386444 0.4774896
    sample estimates:
            p 
    0.4580032 

    Los intervalos son: [0.4386; 0.47749] a un 95% de confianza, es decir, hay una probabilidad del 95% que la proporción poblacional del sexo femenino esté entre 43.8% y 47.7%

    SESION PRACTICA

    Para muestras pequeñas…

    Se poseen 10 huesos de pelvis humanos y por observación se asignó al sexo femenino a 8 de estos. Determine el intervalo de confianza para proporción poblacional del sexo femenino al 95%.

    Sabemos que en este caso debemos usar el metodo Clopper–Pearson, para ello emplearemos el función binom.test()

    binom.test(8,10,conf.level = 0.95)
        Exact binomial test
    
    data:  8 and 10
    number of successes = 8, number of trials = 10, p-value = 0.1094
    alternative hypothesis: true probability of success is not equal to 0.5
    95 percent confidence interval:
     0.4439045 0.9747893
    sample estimates:
    probability of success 
                       0.8 

    Los intervalos son: [0.4439; 0.9747] a un 95% de confianza, es decir, hay una probabilidad del 95% que la proporción poblacional del sexo femenino esté entre 44.4% y 97.5%

    Tarea Corta N°3

    Realizar estimación por intervalos y definir Hipótesis Estadística.

    Para esta tarea, usaremos los datos de la Encuesta nacional de Consumo Alimentario del 2014 disponibles en el Ministerio de Salud https://www.minsal.cl/encabasededatos/ La base base_enca2014.xlsx se encuentra en material docente de la plataforma U-Cursos (base_enca2014.xlsx)

    1.- ESTIMACIÓN DE PARÁMETROS POR INTERVALOS PARA LA MEDIA Y GRÁFICO:

    1.1. Selecione una variable contínua, determine e interprete los intervalos de confianza al 95% segmentados por una variable categórica.

    1.2. Realice el gráfico correspondiente

    2.- ESTIMACIÓN DE PARÁMETROS POR INTERVALOS PARA LA PROPORCIÓN:

    2.1. Para este ejercicio, considere una de estas tres variables: ChoEnerPor, LipEnerPor o ProEnerPor. Como son porcentajes, deben usar el promedio geométrico como proporción. Determinen el promedio general y un promedio segmentado por alguna modalidad de una variable categórica. Nota: para calcular la media geométrica, pueden usar la función geometric.mean() del paquete “psych” ya visto previamente.

    Tarea Corta N°3…continuación

    El resultado del geometric.mean() es un porcentaje, sin embargo para poder usar la función prop.test(), la que sirve para obtener los intervalos, van a necesitar convertir ese porcentaje en una frecuencia absoluta. Para ello deben dividir el porcentaje entre 100 para convertirlo en proporción y luego multiplicarlo por el “N” de la base. Finalmente lo deben redondear con la función round() para obtener la frecuencia final y de esta forma poder usarlo en prop.test().

    Por ejemplo: supongamos que tenemos un porcentaje del 25% (como resultado del geometric.mean()) y sabemos que el “N” de la base es 150, para obtener la frecuencia absoluta procedemos así:

    1. 25% / 100 = 0.25
    2. 0.25 * 150 = 37.5
    3. round(37.5) = 38
    4. prop.test(38,150,correct=FALSE) #Usamos los valores obtenidos y calculamos los intervalos

    2.2. Calcule e interprete los intervalos de confianza al 95% para ambos promedios/proporciones

    Tarea Corta N°3…continuación

    3.- PLANTEAR HIPOTESIS ESTADÍSTICA:

    3.1. Seleccione una variable de tipo contínua y una categórica y establezca un modelo de hipótesis: Nula y Alternativa

    3.2. Seleccione otra variable de tipo contínua y otra categórica y realice un nuevo modelo de hipotesis

    Estructura del reporte

    1. Título del Reporte
    2. Nombre de los integrantes
    3. Variables seleccionadas
    4. Resultados
      • ESTIMACIÓN DE PARÁMETROS POR INTERVALOS PARA LA MEDIA Y GRÁFICO
      • ESTIMACIÓN DE PARÁMETROS POR INTERVALOS PARA LA PROPORCIÓN
      • PLANTEAR HIPOTESIS ESTADÍSTICA
    5. Códigos Utilizados

    Tarea Corta N°3…continuación

    Nombre de las variables y códigos de las categorías

    • nse: Nivel Socio Económico
      1. Alto
      2. Medio alto
      3. Medio
      4. Medio Bajo
      5. Bajo
    • sex: Género
      1. Hombre / 2. Mujer
    • macrozona: Macrozona de la región
      1. Norte
      2. Centro Norte
      3. Centro Sur
      4. Sur
      5. RM
    • area: Área de residencia
      1. Urbano / 2. Rural
    • ageyrs: Edad en años cumplidos
    • wgt: Peso en Kilogramos
    • ht: Estatura en metros
    • energia_kc: Calorías consumidas en Kcals
    • prot_g_dia: Proteínas consumidas en gr/día
    • cho_g_dia: Hidratos de carbono consumidos en gr/día
    • lip_g_dia: Lípidos consumidos en gr/día
    • g_sat_g_di: Grasas saturadas consumidas en mg/día
    • g_mono_g_d: Grasas monoinsaturadas consumidas en mg/día
    • g_poli_g_d: Grasas poliinsaturadas consumidas en mg/día
    • colest_mg: Colesterol consumido en mg/día
    • ChoEnerPor: % de Energía proveniente de carbohidratos
    • LipEnerPor: % de Energía proveniente de lípidos
    • ProEnerPor: % de Energía proveniente de proteínas